MD4 - Netflix Movies ant TV Shows

Notebook realizado por Roger Rey Mesa

https://www.kaggle.com/shivamb/netflix-shows?select=netflix_titles.csv

Netflix, es una empresa de entretenimiento y un servicio por suscripción estadounidense que opera a nivel mundial y cuyo servicio principal es la distribución de contenidos audiovisuales a través de una plataforma en línea o servicio de video bajo demanda por streaming.Es una aplicación que crece cada vez más y más rápido con su popularidad, sus espectáculos y su contenido.

Este notebook trata de realizar un estudio avanzado a través de sus datos y una amplia gama de diferentes gráficos y visuales.

1. Descripción de la base de datos

Este dataset consiste en series, programas de televisión y películas disponibles en Netflix desde su inicio hasta 2019. El conjunto de datos se recoge de Flixable que es un motor de búsqueda de terceros de Netflix.

En 2018, publicaron un interesante informe que muestra que el número de programas de televisión en Netflix casi se ha triplicado desde 2010. El número de películas del servicio de streaming ha disminuido en más de 2.000 títulos desde 2010, mientras que el número de programas de televisión casi se ha triplicado. Será interesante explorar lo que el resto de las percepciones se pueden obtener del mismo conjunto de datos.

El objetivo es realizar un estudio avanzado sobre todos los datos que disponemos. Empezaremos con un apartado de EDA donde podremos obvservar todas las conclusiones a extraer del estudio inical. Seguiremos con un apartado de preprocessing para limpiar los valors no servibles o outliers que disponemos en nuestra base de datos i normalizaremos los datos en caso que sea necesario para poder tratar los de mejor manera en el siguiente apartado. Finalizaremos con un punto de aplicación de modelos para realizar una classificación de los datos y extraeremos conclusiones sobre todo el estudio realizado con este dataset.

2. EDA (exploratory data analysis)

El siguiente código, incluye todas las librerias necesarias para este estudio y lee la base de datos.

El dataset contiene 6234 muestras y disponemos de 12 atributos.

Mostramos todos los atributos que dispone la base de datos y el tipo.

Los atributos de muestras de la base de datos son los siguientes:

Como hemos podido observar en las tablas anteriores, la mayoria de atributos de este dataset son de formato texto excepto los atributos "show_id" y "release_year" que són numéricos. Esto nos complica más el estudio ja que los datos en formato texto són mas dificiles de tratar y se han de tratar de una manera más específica.

Una vez comprobado, observamos como el dataset dispone de más de 2000 muestras que valores inservibles, por lo tanto deberemos eliminar estas muestras para poder empezar a tratar los datos y de esta manera evitar resultados inconcluentes o sin sentido.

Continuamos con nuestro estudio y empezamos a mostrar las primeras gràficas, en este caso mostramos el atributo "type" que nos indica de que tipo de show són los elementos que tenemos en Netflix, pueden ser series o películas. Como podemos apreciar, el 68% de las muestras que tenemos son películas y el 32% de las muestras són series. Tal como hemos demostrado la mayoria de productos que nos ofrece netflix son peliculas.

Analizamos las classificaciones de las muestras que tenemos y las representamos en una gràfica. Este mètodo aplicado se llama "TV parental guideline" y es un sistema de clasificación de contenidos de televisión utilizado en los Estados Unidos. Estos són los diferentes tipos de classifiaciones para el público que dispone el dataset:

Para más información, se puede consultar el siguiente enlace: https://gopioneer.com/wp-content/uploads/2017/01/dtv_movieratings.pdf

Podemos observar en la gràfica como la mayoria de las muestras que tenemos pertenecen a estas dos destacadas classificiones TV-MA (enfocada para adultos y no menores de 17 años) y TV-14 (enfocado para adultos y no menores de 14 años).

Correlación entre atributos

Intentamos motrar la correlación entre los atributos pero como la mayoria de estos són de tipo texto, no podemos extraer conclusiones.

Este primer gráfico HetMap nos muestra la correlación entre los atributos numéricos y el segundo gráfico PairPlot tambien nos indica la correlación entre estos.

Estudio Avanzado

Dado que los datos que tenemos en este dataset no nos permiten mostrar la correlación entre estos debido al formato que tienen. Se ha decido realizar un estudi más avanzado, separando el atributo "date_added" en dos "year_added" y "month_added", de esta manera podemos comprovar en que fechas a lo largo de los años y los meses, se han añadido más "productos" a Netflix.

Tambien se ha divido el atributo "duration" para que en caso de que sea una serie tengamos el atributo "season_count" y sepamos el número de temporadas que contiene, i en caso que sea una película podamos saber su tiempo de duración en el atributo "duration".

El gráfico anterior nos muestra la cantidad de contenido añadido a la plataforma Netflix a través de los años. Podemos observar como en 2013 empieza esta increment hasta llegar al punto más alto en año 2019 que se añadireon 1546 películas y 803 series.

El gráfico anterior, nos muestra la fecha de producción del contenido que disponemos en la plataforma. Observamos como la gran parte del contenido está producido entre el año 2015 y 2019. El pico más alto es en 2017 con 682 películas y en 2019 con 443 series. Podemos deducir que cada año que pasa se producen menos películas i se producen más series.

En este gráfico, podemos observar en que meses del año se suele añadir más contenido a la plataforma. Observamos como en el més de Diciembre es cuando más contenido se añade, esto puede sere debido a las época de Invierno y Navidades que al disponer de vacaciones o debido a las bajas temperaturas, se puede incitar más a los usuarios a consumir el contenido añadido. En cambio, el mes con menos contenido añadido es Febrero o los meses de Mayo y Junio.